Tensor robust principal component analysis (RPCA), which seeks to separate a low-rank tensor from its sparse corruptions, has been crucial in data science and machine learning where tensor structures are becoming more prevalent. While powerful, existing tensor RPCA algorithms can be difficult to use in practice, as their performance can be sensitive to the choice of additional hyperparameters, which are not straightforward to tune. In this paper, we describe a fast and simple self-supervised model for tensor RPCA using deep unfolding by only learning four hyperparameters. Despite its simplicity, our model expunges the need for ground truth labels while maintaining competitive or even greater performance compared to supervised deep unfolding. Furthermore, our model is capable of operating in extreme data-starved scenarios. We demonstrate these claims on a mix of synthetic data and real-world tasks, comparing performance against previously studied supervised deep unfolding methods and Bayesian optimization baselines.
translated by 谷歌翻译
本文涉及两人零和马尔可夫游戏 - 可以说是多代理增强学习中最基本的设置 - 目的是学习纳什平衡(NE)的样本 - 优越。所有先前的结果至少都有两个障碍中的至少一个:多种试剂的诅咒和长层的障碍,无论使用采样方案如何。假设访问灵活的采样机制:生成模型,我们朝着解决此问题迈出了一步。专注于非平稳的有限 - 霍森马尔可夫游戏,我们开发了一种学习算法$ \ mathsf {nash} \ text { - } \ mathsf {q} \ text { - } \ text { - } \ mathsf {ftrl} $ and deflavery and Adaptive采样方案对抗性学习中的乐观原则(尤其是跟随规范化领导者(FTRL)方法),具有精致的奖励术语设计,可确保在FTRL动力学下进行某些可分解性。我们的算法使用$$ \ widetilde {o} \ bigg(\ frac {h^4 s(a+b)} {\ varepsilon^2} \ bigg)$ bigg)$ samples $ \ varepsilon $ -Approximate Markov ne策略其中$ s $是状态的数量,$ h $是地平线,而$ a $ a $ a $ a $ a $(resp。〜 $ b $)表示max-player的动作数(分别〜min-player)。从最小的意义上讲,这几乎无法得到解决。在此过程中,我们得出了一个精致的遗憾,以赋予FTRL的遗憾,从而明确说明了差异数量的作用,这可能具有独立的利益。
translated by 谷歌翻译
本文涉及离线增强学习(RL)中模型鲁棒性和样本效率的核心问题,该问题旨在学习从没有主动探索的情况下从历史数据中执行决策。由于环境的不确定性和变异性,至关重要的是,学习强大的策略(尽可能少的样本),即使部署的环境偏离用于收集历史记录数据集的名义环境时,该策略也能很好地执行。我们考虑了离线RL的分布稳健公式,重点是标签非平稳的有限摩托稳健的马尔可夫决策过程,其不确定性设置为Kullback-Leibler Divergence。为了与样本稀缺作用,提出了一种基于模型的算法,该算法将分布强劲的价值迭代与面对不确定性时的悲观原理结合在一起,通过对稳健的价值估计值进行惩罚,以精心设计的数据驱动的惩罚项进行惩罚。在对历史数据集的轻度和量身定制的假设下,该数据集测量分布变化而不需要完全覆盖州行动空间,我们建立了所提出算法的有限样本复杂性,进一步表明,鉴于几乎无法改善的情况,匹配信息理论下限至地平线长度的多项式因素。据我们所知,这提供了第一个在模型不确定性和部分覆盖范围内学习的近乎最佳的稳健离线RL算法。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
越来越多的数据科学和机器学习问题依赖于张量的计算,这些计算比矩阵更好地捕获数据的多路关系和相互作用。当利用这一关键优势时,一个关键的挑战是开发计算上有效的算法,以从张量数据中提取有用的信息,这些信息同时构成腐败和不良条件。本文解决了张量强大的主成分分析(RPCA),该分析旨在从塔克分解下的稀疏腐败污染的观察结果中回收低排名的张量。为了最大程度地减少计算和内存足迹,我们建议通过缩放梯度下降(scaledgd)直接恢复低维张量因子(从量身定制的光谱初始化开始),并与迭代变化的阈值操作相结合腐败。从理论上讲,我们确定所提出的算法以恒定的速率与真实的低级张量线性收敛,而恒定的速率与其条件编号无关,只要损坏的水平不大。从经验上讲,我们证明,通过合成实验和现实世界应用,提出的算法比最先进的矩阵和张量RPCA算法更好,更可扩展的性能。
translated by 谷歌翻译
多代理系统的一个主要挑战是,系统的复杂性随着代理的数量以及其动作空间的规模而显着增长,在现实世界中,这是典型的,例如自动驾驶汽车,机器人团队,网络路由等。因此,正是在设计分散或独立算法的迫在眉睫的需求中,其中每个代理的更新仅基于它们的本地观察结果,而无需引入复杂的通信/协调机制。在这项工作中,我们研究了潜在游戏的独立熵规范化自然策略梯度(NPG)方法的有限时间收敛,在这些方法中,由于单方面偏差而导致的代理商效用函数的差异与普通潜在功能完全匹配。提出的熵注册的NPG方法使每个代理都可以根据自己的回报部署对称,分散和乘法更新。我们表明,所提出的方法以均方根速率收敛到定量响应平衡(QRE)(QRE)(QRE) - 与熵调制的游戏的平衡 - 与动作空间的大小无关,并且最多地与数字一起增长代理商。有吸引力的是,收敛率进一步与相同利益游戏的重要特殊情况的代理数量独立,从而导致了第一种以无维率收敛的方法。我们的方法可以用作平滑技术,以找到未注册问题的近似NASH平衡(NE),而无需假设固定策略是隔离的。
translated by 谷歌翻译
离线或批次加固学习试图使用历史数据来学习近乎最佳的政策,而无需积极探索环境。为了应对许多离线数据集的覆盖范围和样本稀缺性,最近引入了悲观的原则,以减轻估计值的高偏差。在理论上已经研究了基于模型的算法的悲观变体(例如,具有较低置信度范围的价值迭代),但他们的无模型对应物(不需要明确的模型估计)尚未得到充分研究,尤其是在样本方面的研究效率。为了解决这种不足,我们在有限的马尔可夫决策过程中研究了Q学习的悲观变体,并在单极浓缩性假设下表征其样品复杂性,该假设不需要全面覆盖状态行动空间。此外,提出了降低方差的悲观Q学习算法来达到近乎最佳的样本复杂性。总的来说,这项工作突出了与悲观和降低差异一起使用时,在离线RL中无模型算法的效率。
translated by 谷歌翻译
在互联网上的多种代理环境中的新兴应用程序,如互联网,网络传感,自主系统和联合学习,呼叫分散算法,以便在计算和通信方面是资源有效的有限总和优化。在本文中,我们考虑了原型设置,其中代理正在协作地工作,以通过在预定的网络拓扑中与其邻居通信来最小化局部损失函数的总和。我们开发了一种新的算法,称为分散的随机递归梯度方法(DESTRess),用于非耦合有限和优化,它与集中式算法的最佳增量一阶Oracle(IFO)复杂性匹配,用于查找一阶静止点,同时保持通信效率。详细的理论和数值比较证实了迭代在广泛的参数制度上提高现有分散算法的资源效率。 Descress利用了多个关键算法设计思路,包括随机激活的随机递增渐变渐变更新,具有用于本地计算的迷你批次,梯度跟踪,梯度跟踪,用于额外混合(即,多个八卦轮),用于偏移通信,以及仔细选择超参数和新的分析框架可证明达到理想的计算 - 通信权衡。
translated by 谷歌翻译
政策优化,通过大规模优化技术最大化价值函数来学习兴趣的政策,位于现代强化学习(RL)的核心。除了价值最大化之外,其他实际考虑因素也出现,包括令人鼓舞的探索,以及确保由于安全,资源和运营限制而确保学习政策的某些结构性。这些考虑通常可以通过诉诸正规化的RL来占据,这增加了目标值函数,并通过结构促进正则化术语。专注于无限范围打折马尔可夫决策过程,本文提出了一种用于解决正规化的RL的广义策略镜血压(GPMD)算法。作为策略镜血压LAN的概括(2021),所提出的算法可以容纳一般类凸常规的常规阶级,以及在使用中的规则器的认识到的广泛的Bregman分歧。我们展示了我们的算法在整个学习速率范围内,以无维的方式在全球解决方案的整个学习速率范围内融合到全球解决方案,即使常规器缺乏强大的凸起和平滑度。此外,在不精确的策略评估和不完美的政策更新方面,该线性收敛特征是可透明的。提供数值实验以证实GPMD的适用性和吸引力性能。
translated by 谷歌翻译
提供了一种强大而灵活的模型,可用于代表多属数据和多种方式相互作用,在科学和工程中的各个领域中发挥着现代数据科学中的不可或缺的作用。基本任务是忠实地以统计和计算的有效方式从高度不完整的测量中恢复张量。利用Tucker分解中的张量的低级别结构,本文开发了一个缩放的梯度下降(Scaledgd)算法,可以直接恢复具有定制频谱初始化的张量因子,并表明它以与条件号无关的线性速率收敛对于两个规范问题的地面真理张量 - 张量完成和张量回归 - 一旦样本大小高于$ n ^ {3/2} $忽略其他参数依赖项,$ n $是维度张量。这导致与现有技术相比的低秩张力估计的极其可扩展的方法,这些方法具有以下至少一个缺点:对记忆和计算方面的对不良,偏移成本高的极度敏感性,或差样本复杂性保证。据我们所知,Scaledgd是第一算法,它可以同时实现近最佳统计和计算复杂性,以便与Tucker分解进行低级张力完成。我们的算法突出了加速非耦合统计估计在加速非耦合统计估计中的适当预处理的功率,其中迭代改复的预处理器促进轨迹的所需的不变性属性相对于低级张量分解中的底层对称性。
translated by 谷歌翻译